业界 | 3 篇论文+两项赛事夺冠,ECCV 2018见证京东 AI 技术新进展
AI 科技评论消息,9 月 8 日至14 日,两年一度的欧洲计算机视觉大会(ECCV 2018)在德国慕尼黑召开。作为与 CVPR、ICCV 共称为计算机视觉领域三大顶级学术会议,ECCV 今年的火爆程度惊人。据悉,ECCV 2018 有近 3200 人参加,接收论文 776 篇( 2016 年为 415 篇);另有 43 场 Workshops 和 11 场 Tutorials。京东 AI 研究院在副院长、计算机视觉与多媒体实验室主任梅涛博士的带领下赴会,在本次 ECCV 2018 大会上取得了亮眼的成绩。
本次京东 AI 研究院不仅有 3 篇论文被 ECCV 2018 收录,还在 ECCV 大会举办的视觉领域迁移学习挑战赛夺得两项冠军、视觉领域 Wider face&pedestrian 挑战赛(行人检测任务)中获得第二名。凭借以上成绩,京东 AI 研究院在雷锋网旗下学术频道 AI 科技评论数据库产品「AI 影响因子」(https://www.leiphone.com/AiWeights)中有相应加分。
3 篇收录论文,从图像描述、视频动作检测、视觉问答三个方面创新算法
京东 AI 研究院被 ECCV 2018 收录的 3 篇论文,分别是在图像描述、视频动作检测、视觉问答等课题上取得的重大算法创新。
《探索图像描述的视觉关系》(Exploring Visual Relationship for Image Captioning)
对于人类而言,当他看到一幅图像时不仅能知道图像中包含的物体场景等,同时还能捕捉到物体之间的联系,图像描述的核心任务是研究便是让计算机像人一样看图说话,即对图像内容进行深层次的理解并自动生成和图像内容相关的描述语句,然而业界目前还没有相对应的工作来探索物体间联系对图像描述的作用。
基于此,京东 AI 研究院设计了一个基于图卷积网络(Graph Convolutional Networks)和长短时记忆网络(LongShort-Term Memory)的编码器-解码器系统来将物体间的语义关系和空间关系融入到图像描述的生成过程中,其结构图如下:
图 1. 本文提出的基于物体间联系的图像描述模型整体框架图
该编码器-解码器图像描述系统可分为三个步骤:
(1)对于输入的图像,物体检测模块首先检测图像中包含的物体,并获得每个物体对应的区域级别的特征。然后,针对检测出来的多个物体,京东 AI 研究院团队会构建出物体间的语义关系图和空间关系图;
(2)接着在基于图卷积网络的图像编码器模块中,图卷积网络会分别作用于物体间的语义关系图和空间关系图上,将两两物体间的语义关系和空间关系融入到对应物体的区域级别的特征,实现对物体区域级别特征的进一步编码;
(3)在获得了来自于语义关系图或者空间关系图上蕴含有物体间关系的区域级别特征后,我们将这一组编码后的物体区域级别特征输入基于长短时记忆网络的解码器模块,主要利用两层的长短时记忆网络来将输入的图像区域级别特征解码为对应的文本描述。
该系统在图像描述基准数据集 COCO 上验证了物体间联系对图像描述的促进作用,并获得了目前业界单模型最优的效果。
《动作检测的循环定位和识别网络》(Recurrent Tubelet Proposal and Recognition Networks for ActionDetection)
视频动作检测任务要求识别出视频中人物的动作并确定其在视频中的时空位置。现有方法大部分都是为每个单独的帧或固定长度的片段独立地生成动作定位,往往忽略了帧与帧或片段与片段之间的上下文关系。然而,一个动作本身就是由一系列连续的移动构成的,这种上下文关系对视频动作检测而言非常重要。
京东 AI 研究院提出了一种基于视频中的时间上下文信息来进行动作检测的深度模型。此深度模型主要分为两部分:
循环动作定位网络:它首先用传统的区域生成网络对视频中第一帧的动作进行定位,然后通过估计当前帧的动作在下一帧的位移来得到下一帧中动作的位置。随后利用维特比算法将所有帧的动作定位连成动作序列。
循环动作识别网络:该网络采用多通道架构来识别动作序列。团队在每一个通道中都使用了 LSTM 网络结构来捕捉视频中的时间信息,并在四个公开数据集上验证了模型的有效性并实现了目前为止最好的检测性能(在 UCF-Sports, J-HMDB, UCF-101 和 AVA 上分别取得了 2.9%,4.3%,0.7% 和 3.9% 的性能提升)。
图 2. 本文提出的视频动作检测模型整体框架图。此模型主要由循环动作定位网络和循环动作识别网络构成。循环动作定位网络通过当前帧的动作在下一帧的位移来得到下一帧中动作的位置。随后所有帧的动作定位被连成动作序列。循环动作识别网络采用多通道架构来识别动作序列。
《视觉问答的深度注意力张量神经网络》(Deep Attention Neural Tensor Network for Visual Question Answering)
视觉问答任务要求在给定一幅图像与问句之后要求预测出与之对应的答案。近年来关于该任务的研究工作主要关注于视觉特征与文本特征的多模态融合学习。绝大多数相关研究工作是直接将视觉特征表示与文本特征表示融合之后训练分类器的方式来完成视觉问答的,然而这些方法却把图像—问句—答案这个三元组之间隐含的相互关系忽略了。
本文提出一种基于张量神经网络对图像—问句—答案三元组之间的关系进行建模的方法。考虑到在大多数情况下,三元组之间的相互关系与问句的类型息息相关,因此该论文提出了由问句类型和答案类型指导的注意力模型来帮助三元组选择合适的相互关系和自适应推理过程,最后采用一种基于回归的训练方式解决开放性视觉问答任务。
最后的实验结果证明,本文提出的方法不但可以有效的对图像—问句—答案之间的隐含关系进行建模(在 VQA-1.0 和 VQA-2.0 数据上分别基于 MUTAN 和 MLB 视觉问答模型取得了 1.70% 和 1.98% 的相对性能提升),而且对于不同的问题类型,可以自适应的选择与之对应的推理过程,同时基于视觉问答任务的监督信息可以学习得到具有视觉区分能力的答案特征表示。
ECCV 2018 视觉领域迁移学习挑战赛摘下双桂冠
此次 ECCV 2018 大会举办的视觉领域迁移学习挑战赛,具体任务场景分为开放式图像分类(openset classification)和物体检测(detection)两种, 京东 AI 研究院在此项赛事的两个任务中均以大比分优势摘下桂冠。
挑战赛中,京东 AI 研究院计算机视觉与多媒体团队针对数据分布差异较大的源域和目标域,设计了一套通用于图像分类和物体检测的迁移学习系统,其主要思想是赋予目标域图像相对应的伪标签,并在基于联合聚类的筛选之后将带有伪标签的目标域图像加入到分类器或者检测器的学习中,从而进一步地调整模型。通过实验可以发现,这样基于伪标签的方法可以有效地将源域中的知识迁移到目标域中。
在 ECCV 2018 大会举办的另一赛事——视觉领域 Wider face&pedestrian 挑战赛中,京东 AI 研究院计算机视觉与多媒体团队则在行人检测任务中获得了第二名,并受邀在 Wider face&pedestrian Challenge Workshop 上介绍了该团队在人体检测方面的最新研究进展。
在该比赛中,京东 AI 研究院使用了基于 Faster R-CNN 的检测框架,加入了特征金字塔、组标准化、级联 R-CNN 以及多通道特征注意力模型等方法,并在不同级联阶段设计了可以自适应平衡分类与回归误差的新损失函数。实验证明,该研究团队所提出的这一方法能够有效地处理复杂场景下的小目标行人检测问题。
值得一提的是,在刚刚过去的中国多媒体大会 ChinaMM 上,京东 AI 还主办了 JD AI Fashion Challenge 技术竞赛,吸引了 212 支来自国内外高校、企业的队伍报名参加。这一赛事同样让京东 AI 研究院在「AI 影响因子」获得加分。据悉,明年年初京东将启动新一轮的国际时尚大赛。